iT邦幫忙

2023 iThome 鐵人賽

DAY 15
0

談到 Data Fabric 就是 Athemaster 炬識的主場了!(上一篇談 Data Mesh 可讓我流了很多冷汗啊/images/emoticon/emoticon16.gif

因為 Data Fabric 是更傾向保留資料倉儲、資料湖泊或是資料湖倉的。如同 Gartner 的觀點,Data Fabric 與 Data Mesh 都是企業在 Data Management Paradigm (資料管理範式) 上的選擇。

Data Fabric 的策略是維持現有的資料庫系統,以虛擬層集中管理,統合 Metadata。Data Mesh 的策略則是遷移資料以集中,然後再以 Domain 為單位分散資料、聯合維運。如果 Data Fabric 是邦聯制,Data Mesh 就是聯邦制。

我個人預測未來不會有哪一種範式獨贏的局面,大型企業中將同時存在 Data Fabric & Data Mesh 的架構,依據業務類型與商業競爭策略有不同的佔比。我猜高度監管的行業(例如金融)會有更高佔比的 Data Fabric,高度競爭的行業(例如電商)會有更高佔比的 Data Mesh。

Data Fabric 把資料管線比做纖維,編織成一片布覆蓋整個企業,以提供資料服務

我們可以粗略地分析 Data Fabric 具有以下特色:

  1. 資料整合範圍必須涵蓋雲地混合和多雲平台
  2. Data Pipeline(資料管線) 與 Metadata Management 在同一個階層結合處理
  3. 允許讓資料保留在原地資料庫系統或其他系統
  4. 設計自動化重複任務以優化資料管理(如分析資料集、發現並將模式對齊到新的資料源,甚至修復失敗的資料整合任務)

Data Fabric 透過不斷識別並連接來自不同應用程序的資料,挖掘可用資料節點之間的業務邏輯,以洞見支援資料結構與應用系統商業邏輯的重新設計。換言之,Data Fabric 的驅動力是數位轉型的實現。

https://ithelp.ithome.com.tw/upload/images/20230918/20161790UW7SJLCdKW.png

圖片來源:https://www.gartner.com/smarterwithgartner/data-fabric-architecture-is-key-to-modernizing-data-management-and-integration

實踐 Data Fabric 的兩大利器:Apache Iceberg 與 Apache Airflow

Apache Airflow 是資料工程領域的工作流程管理平台,這個元件將資料管線開發模組化,讓新增的資料資產可以很快加入到供應鏈中。而且它是分散式系統,可以支持逐漸編織得越來越大的 Data Fabric!

我在兩年前就認識到 Data Fabric 這個詞彙,但是毫無感覺,因為企業客戶必須用產品混用客製化開發,才能達到所訴求的願景。

有了 Apache Iceberg 提供統合異質系統的 Metadata Management, 以及 Apache Airflow 集中管理所有的資料整合任務,讓 Data Fabric 能夠真正覆蓋企業所有資料儲存點。

看到 Cloudera 今年在 Private Cloud 產品線,先後發布支援 Apache Iceberg 與 Apache Airflow,我高興極了,Cloudera 對於企業資料湖泊如何再進化,總算提交了漂亮的答卷。

延伸閱讀:
https://www.gartner.com/smarterwithgartner/data-fabric-architecture-is-key-to-modernizing-data-management-and-integration


上一篇
淺談 Data Mesh & Microservices
下一篇
DataOps(Data is the New Infra,也需要來點 Ops)
系列文
吵什麼 AI 煉金術?!你家有礦嗎?(資料領域必知的 30 個詞彙)30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言